我们从两个在线人机互动实验中介绍了数据,其中227名参与者观看了人形机器人的视频,表现出有缺陷或非故障行为,同时保持沉默或说话。要求参与者评估他们对机器人的信任度的看法,以及其可爱,动画和感知的情报。结果表明,虽然一个非故障机器人达到了最高的信任,但可以说出来的似乎有故障的机器人可以完全减轻否则会出现错误行为的信任损失。我们认为,这种缓解与在存在语音时也可以看到的感知智能的增加有关。
translated by 谷歌翻译
In this paper we take the first steps in studying a new approach to synthesis of efficient communication schemes in multi-agent systems, trained via reinforcement learning. We combine symbolic methods with machine learning, in what is referred to as a neuro-symbolic system. The agents are not restricted to only use initial primitives: reinforcement learning is interleaved with steps to extend the current language with novel higher-level concepts, allowing generalisation and more informative communication via shorter messages. We demonstrate that this approach allow agents to converge more quickly on a small collaborative construction task.
translated by 谷歌翻译
多臂强盗(MAB)问题是一个简单而强大的框架,在不确定性下的决策背景下进行了广泛的研究。在许多实际应用程序(例如机器人应用程序)中,选择ARM对应于限制下一个可用臂(动作)选择的物理动作。在此激励的情况下,我们研究了一个称为图形匪徒的mAb的扩展,在该图形上,试图从不同节点收集的奖励来传播图形。该图定义了代理在每个步骤中选择下一个可用节点时的自由度。我们假设图形结构完全可用,但是奖励分布未知。我们建立在基于脱机图的计划算法和乐观原则的基础上,我们设计了一种在线学习算法,该算法可以使用乐观原则来平衡长期探索 - 探索。我们表明我们提出的算法达到$ o(| s | \ sqrt {t} \ log(t)+d | s | s | \ log t)$学习后悔,其中$ | s | $是节点的数量和$ d $是该图的直径,与在类似设置下的最著名的增强学习算法相比,这是优越的。数值实验证实,我们的算法优于几个基准。最后,我们提出了一个由图形匪徒框架建模的合成机器人应用程序,其中机器人在农村/郊区位置网络上移动,使用我们建议的算法提供高速Internet访问。
translated by 谷歌翻译
当前的语言模型因单独从文本学习语言而没有单词及其含义之间的联系而受到批评。因此,已经提出了多模式训练,以通过提供缺乏联系来创建具有更好的语言理解模型的一种方式。我们专注于预先训练的多模式视觉和语言(VL)模型,这些模型已经有了他们的语言理解能力的一些结果。然而,评估这些模型的语言技能的一个尚未解决的问题是,没有建立的方法可以使它们在没有分发不确定性的情况下适应仅文本输入。为了找到最佳方法,我们研究并比较了将三种不同的预训练VL模型适应仅文本输入的七种可能的方法。我们对胶水和视觉属性规范(VPN)的评估表明,应注意将VL模型调整为零击文本任务,而模型对我们如何使其适应非零射击任务的敏感性不太敏感。我们还发现,适应方法对不同模型的性能有所不同,并且单形模型对应物与VL模型相同,无论适应如何,这表明当前的VL模型并不一定从其多峰训练中获得更好的语言理解。
translated by 谷歌翻译
在样本量有限的域中,有效的学习算法至关重要。使用特权信息(LUPI)学习,通过允许预测模型在培训时间访问信息类型,从而提高了样本效率,而在使用模型时,这是不可用的。在最近的工作中,有证据表明,对于线性高斯动力学系统的预测,具有中间时间序列数据访问的卢比学习者永远不会比任何公正的经典学习者更糟糕,而且常常更好。我们为该分析提供了新的见解,并将其推广到潜在动力学系统中的非线性预测任务,从而将理论保证扩展到连接潜在变量和观察值的地图已知到线性变换的情况下。此外,我们提出了基于随机特征和表示该地图未知的情况的表示算法。一套经验结果证实了理论发现,并显示了在非线性预测中使用特权时间序列信息的潜力。
translated by 谷歌翻译
我们考虑在重复的未知游戏中进行规避风险的学习,在这种游戏中,代理商的目标是最大程度地减少其个人产生高成本的风险。具体而言,代理商使用处于风险的条件值(CVAR)作为风险措施,并以每集选定动作的成本值的形式依靠强盗反馈来估算其CVAR值并更新其动作。使用匪徒反馈来估计CVAR的一个主要挑战是,代理只能访问其自身的成本值,但是,这取决于所有代理的行为。为了应对这一挑战,我们提出了一种新的规避风险的学习算法,并利用有关成本价值的完整历史信息。我们表明,该算法实现了子线性的遗憾,并匹配了文献中最著名的算法。我们为欧洲大师游戏提供了数值实验,该游戏表明我们的方法表现优于现有方法。
translated by 谷歌翻译
我们追求一系列研究,试图使深度神经网络的输入输出映射的雅各布频谱规范正规化。在先前的工作依赖上边界技术的同时,我们提供了针对确切光谱规范的方案。我们证明,与以前的光谱正则化技术相比,我们的算法可以提高概括性能,同时保持了防御自然和对抗性噪声的强大保护。此外,我们进一步探讨了一些以前的推理,这些推理是关于雅各布正规化提供的强大对抗保护,并表明它可能具有误导性。
translated by 谷歌翻译
在机器学习的许多应用中,不可避免的值是不可避免的,并且在培训和测试时都提出了挑战。当反复出现的模式中缺少变量时,已经提出了单独的图案子模型作为解决方案。但是,独立模型并不能有效利用所有可用数据。相反,将共享模型拟合到完整数据集通常取决于插补,而当丢失度取决于未观察到的因素时,这可能是次优的。我们提出了一种替代方法,称为共享模式子模型,该方法做出了a)在测试时对缺失值的强大预测,b)维持或提高模式子模型的预测能力,c)有一个简短的描述,可改善可解释性。我们确定共享是最佳的情况,即使缺失本身具有预测性以及预测目标取决于未观察到的变量。关于合成数据和两个医疗保健数据集的分类和回归实验表明,我们的模型在模式专业化和信息共享之间实现了良好的权衡。
translated by 谷歌翻译
随机对照试验(RCT)被认为是估计干预措施影响的黄金标准。最近的工作通过对年龄和种族等表的变量进行调节估计来研究RCT的效应异质性。但是,这种变量通常只在实验时间附近观察到,并且可能无法捕获效果变异的历史或地理原因。当实验单元与特定位置相关联时,卫星图像可以提供此类历史和地理信息,但是没有任何方法将其包含在描述效果异质性。在本文中,我们开发了一种方法,该方法使用深层概率建模框架估算,图像簇在治疗效果上具有相同的分布。我们将提出的方法与模拟中的替代方法进行比较,并在估计乌干达的反贫困干预措施的影响方面进行了比较。引入了因果正规化惩罚,以确保聚类模型在恢复平均治疗效果(ATE)方面的可靠性。最后,我们讨论了这些方法对其他领域的可行性,局限性以及适用性,例如医学和气候科学,其中图像信息很普遍。我们为在开源软件包中公开使用的所有建模策略制作代码。
translated by 谷歌翻译
因果关系的观察性研究需要调整混杂因素。在这些因素定义明确的单独随机变量的表格环境中,人们可以很好地理解混杂的效果。但是,在公共政策,生态学和医学中,决策通常是在非尾部环境中做出的,这些设置由图像中检测到的模式或对象(例如,地图,卫星或层析成像图像)所告知。使用此类图像进行因果推理会带来机会,因为图像中的对象可能与感兴趣的治疗和结果有关。在这些情况下,我们依靠图像来调整混淆,但观察到的数据并未直接标记重要对象的存在。在现实世界中的激励中,我们正式化了这一挑战,如何处理,以及哪些条件足以识别和估计因果关系。我们使用仿真实验分析有限样本的性能,并使用采用机器学习模型来估计图像混淆的倾向调整算法估算效果。我们的实验还检查了对图像模式机制错误指定的敏感性。最后,我们使用我们的方法来估计卫星图像中政策干预对非洲社区贫困的影响。
translated by 谷歌翻译